78 примеров и огромный прирост: LIMI превращает крошевые наборы данных в мощные софт-агенты
'LIMI использует 78 курированных траекторий, чтобы дообучить модели GLM и получить 73.5% на AgencyBench, опережая базовые SFT-модели с тысячами примеров.'
Найдено записей: 4
'LIMI использует 78 курированных траекторий, чтобы дообучить модели GLM и получить 73.5% на AgencyBench, опережая базовые SFT-модели с тысячами примеров.'
'Google демонстрирует, что дообучение LLM возможно с менее чем 500 целевыми метками, сохраняя или улучшая качество модели при сокращении объема разметки на несколько порядков.'
DSRL представляет инновационный метод адаптации диффузионных политик роботов с помощью обучения с подкреплением в латентном пространстве, значительно улучшая результаты в реальных условиях без изменения базовой модели.
Исследователи показали, что обучение больших языковых моделей с помощью всего одного примера значительно улучшает их способности решать математические задачи, достигая результатов, сопоставимых с обучением на больших наборах данных.